接續上一篇最後的問題
「如何評估兩個模型函數的差異」
再說這個之前
先來說說信息熵(Information Entropy,熵 ㄉㄧ ,雖然我都念熵 : ) )
我們用「熵」衡量一個系統的不確定性
熵越大時,代表這個系統越充滿不確定性
或者說,在一個充滿不確定性的系統中
當某件事情發生時,我們所獲得的信息量越大
這個信息量的度量就稱作「熵」
我們希望獲得信息的感覺
大概就跟下圖的情境一樣
熵的公式為
484很神奇~
為什麼會有 log? 為什麼有負號(-)? 為什麼有 sigma?
熵最原始的想法是
在某系統之下,獲取信息量的期望值
上式的 是指信息量
我們會希望上式的 可以滿足以下要求:
從上述兩要求中
可以立刻聯想到最簡單的解為
最後再做一點對數的運算
就可以得到熵的公式了~
上述的對數並沒有指定底數
底數只是影響最後結果的「單位」而已
如果以 2 為底,則單位為「bit」
如果以 e 為底,則單位為「nat」
講了這麼多....
到底「熵」這東西對我們想要的「評估兩個模型函數的差異」有什麼用呢?
別急,讓我們下(ㄊㄨㄛ)次(ㄊㄧㄢ)說(ㄕㄨˋ)